Objectifs d'apprentissage
- Configurer et vérifier un environnement de développement GPU prêt pour la production en utilisant CUDA et ROCm.
- Exécuter un profilage système complet pour cartographier les chronogrammes d'exécution des noyaux et l'utilisation des ressources.
- Différencier les noyaux limités par le calcul de ceux limités par la mémoire à l'aide de métriques et de modèles roofline.
- Diagnostiquer et atténuer la surcharge liée aux transferts de données PCIe et la latence entre l'hôte et le périphérique.